反饋內容

什么是stable diffusion 2.0?

言归正传,Stable Diffusion 2.0还包括一个高阶Diffusion模型——Upscaler Diffusion模型,可以 将图像分辨率提高4倍。 左图:128x128 低分辨率图像。 右图:Upscaler 生成的 512x512 分辨率图像 有了Upscaler Diffusion的加持,Stable Diffusion 2.0与以前的文本到图像模型结合使用时, 可以生成分辨率为2048×2048或更高的图像。 与此同时,团队采用了一种新的深度引导 (depth-guided)稳定扩散模型——depth2img。 它 扩展了 V1版本中的图像到图像特性,为创造性应用提供了全新的可能性 。

什么是stable-diffusion-2-depth?

stable-diffusion-2-depth 是也是在SD 2.0的512x512版本上finetune的模型,它是额外增加了图像的深度图作为condition,这里是直接将深度图下采样8x,然后和nosiy latent拼接在一起送入UNet模型中。 深度图可以作为一种结构控制,下图展示了加入深度图后生成的图像效果: 你可以调用diffusers库中的 StableDiffusionDepth2ImgPipeline 来实现基于深度图控制的文生图:

如何验证stable diffusion 模型的训练性能?

为了验证 Stable Diffusion 模型的训练性能,我们使用 Google Conceptual Caption 数据集复现了 Stable Diffusion 的训练。 Google Conceptual Caption 是一个相对小范围的多模态数据集,其中有 285 万“图像 - 文本”对。 该数据集已集成在幻方 AI 的数据集仓库中,转化为 ffrecord 训练数据格式存储在 3FS 高速存储里。 用户可以通过如下方式调取获得高速的训练数据读取:

相關文章

全球領先的加密貨幣交易平台

獲取迎新禮